Karşılıklı Bilgi Kullanılarak Metin Sınıflandırma İçin
Özellik Seçimi
Feature Selection for Text Classification Using
Mutual Information
İlhami SEL
Bilgisayar Mühendisliği Bölümü
İnönü Üniversitesi
Malatya,Türkiye
ilhamisel23@gmail.com
Ali KARCI
Bilgisayar Mühendisliği Bölümü
İnönü Üniversitesi
Malatya,Türkiye
ali.karci@inonu.edu.tr
Davut HANBAY
Bilgisayar Mühendisliği Bölümü
İnönü Üniversitesi
Malatya,Türkiye
davut.hanbay@inonu.edu.tr
Özet— Özellik seçimi, veri setini temsil edebilecek en iyi alt
kümenin seçimi, yani sonucu etkilemeyen gereksiz verilerin
çıkarılması olarak tanımlanabilir. Sınıflandırma
uygulamalarında özellik seçimi ile boyut düşürüldüğünde sistemin
verimliliği ve doğruluğu artırılabilir. Bu çalışmada Reuters haber
ajansının yayınlamış olduğu “20 news group” verileri kullanılarak
metin sınıflandırma uygulaması yapılmıştır. Ön işlemlerden geçen
haber verileri Doc2Vec yöntemi kullanılarak vektörlere
dönüştürülmüş ve veri seti oluşturulmuştur. Bu veri seti
Maximum Entropy Sınıflandırma yöntemiyle sınıflandırılmıştır.
Sonrasında ise özellik seçimi için Karşılıklı Bilgi yöntemi
kullanılarak veri seti alt kümesi oluşturulmuştur. Oluşan veri
setiyle tekrar sınıflandırma işlemi uygulanıp sonuçlar başarım
oranlarına göre karşılaştırılmıştır. Özellik seçiminden önce 600
özelliğe sahip sistemin başarısı (0.9285) iken sonrasında
oluşturulan 200, 100, 50, 20 özellikli modellerin başarım oranı
sırasıyla (0.9454, 0.9426, 0.9407, 0.9123) çıkmıştır. Sonuçlar
incelendiğinde 50 özellikli modelin başarısı başlangıçta
oluşturulan 600 özellikli modelden daha yüksek çıkmıştır.
Anahtar Kelimeler— Doğal Dil İşleme, Doc2Vec, Karşılıklı Bilgi,
Maximum Entropy
Abstract— The feature selection can be defined as the selection
of the best subset to represent the data set, that is, the removal of
unnecessary data that does not affect the result. The efficiency and
accuracy of the system can be increased by decreasing the size and
the feature selection in classification applications. In this study,
text classification was applied by using “20 news group” data
published by Reuters news agency. The pre-processed news data
were converted into vectors using the Doc2Vec method and a data
set was created. This data set is classified by the Maximum
Entropy Classification method. Afterwards, a subset of data sets
was created by using the Mutual Information Method for the
feature selection. Reclassification was performed with the
resulting data set and the results were compared according to the
performance rates. While the success of the system with 600
features was (0.9285) before the feature selection, (0.9285), then,
the performance rates of the 200, 100, 50, 20 models were obtained
as (0.9454, 0.9426, 0.9407, 0.9123), respectively. When the results
were examined, the success of the 50-featured model was higher
than the 600-featured model initially created.
Key Words— Natural Language Processing, Doc2Vec, Mutual
Information, Maximum Entropy
I. GİRİŞ
Doğal Dil İşleme (DDİ) alanındaki gelişmelerle birlikte,
konuşma dilinin bilgisayar tarafından anlamlandırılması,
yorumlanması ve gerektiğinde tekrar üretilmesi gibi çalışmalar
yoğun bir şekilde devam etmektedir. Sosyal medya, haber
siteleri, kullanıcı yorumları gibi doğal dilin temel özelliklerini
taşıyan metinlerin artmasıyla oluşan büyük boyutlardaki
verilerden önemli verinin çıkarılması da DDİ’nin çalışma
alanlarından bir tanesidir. Metin sınıflandırma; bir metinin veya
dokümanın daha önceden belirlenmiş kategorilerden birisine
atanması olarak tanımlanabilir. Bu çalışma da Reuters haber
ajansının yayınlamış olduğu “20 news group” isimli 20 gruptan
ve 18878 dokümandan oluşan veri setinin sınıflandırılması
amaçlanmıştır. Dokümanların vektöre çevrilmesi için mikolov
ve ark. [1,2] geliştirmiş oldukları Doc2Vec algoritması
kullanılmıştır. Sonrasında Karşılıklı Bilgi (KB) yöntemiyle
Özellik Seçimi (ÖS) yapılmış oluşturulan modellerin başarım
oranları karşılaştırılmıştır.
Bu çalışmanın ikinci bölümünde geçmiş çalışmalardan
bahsedilmiş, üçüncü bölümde DDİ yöntemleri, dördüncü
bölümde metin sınıflandırma yöntemleri açıklanmış, beşinci
bölümde özellik seçimi anlatılmış, altıncı bölümde uygulama
anlatılmış ve son bölümde ise sonuçlar hakkında
değerlendirmeler yapılmıştır.
Authorized licensed use limited to: Hong Kong University of Science and Technology. Downloaded on July 19,2023 at 08:17:35 UTC from IEEE Xplore. Restrictions apply.